home *** CD-ROM | disk | FTP | other *** search
/ Collection of Internet / Collection of Internet.iso / faq / comp / comp_spe / part3 < prev   
Internet Message Format  |  1994-04-16  |  44KB

  1. Path: bloom-beacon.mit.edu!senator-bedfellow.mit.edu!faqserv
  2. From: andrewh@speech.su.oz.au (Andrew Hunt)
  3. Newsgroups: comp.speech,comp.answers,news.answers
  4. Subject: comp.speech Frequently Asked Questions - part 3/3
  5. Supersedes: <comp-speech-faq/part3_764040899@rtfm.mit.edu>
  6. Followup-To: comp.speech
  7. Date: 16 Apr 1994 13:08:05 GMT
  8. Organization: Speech Technology Group, The University of Sydney
  9. Lines: 996
  10. Approved: news-answers-request@MIT.Edu
  11. Expires: 28 May 1994 13:05:48 GMT
  12. Message-ID: <comp-speech-faq/part3_766501548@rtfm.mit.edu>
  13. References: <comp-speech-faq/part1_766501548@rtfm.mit.edu>
  14. Reply-To: andrewh@speech.su.oz.au (Andrew Hunt)
  15. NNTP-Posting-Host: bloom-picayune.mit.edu
  16. Summary: Useful information about Speech Technology
  17. X-Last-Updated: 1994/04/06
  18. Originator: faqserv@bloom-picayune.MIT.EDU
  19. Xref: bloom-beacon.mit.edu comp.speech:2285 comp.answers:4934 news.answers:18148
  20.  
  21. Archive-name: comp-speech-faq/part3
  22. Last-modified: 1994/04/06
  23.  
  24.  
  25. SECTION 5 - Speech Synthesis
  26.  
  27. Q5.1: What is speech synthesis?
  28.  
  29. Speech synthesis is the task of transforming written input to spoken output.
  30. The input can either be provided in a graphemic/orthographic or a phonemic
  31. script, depending on its source.
  32.  
  33. ------------------------------------------------------------------------
  34.  
  35. Q5.2: How can speech synthesis be performed?
  36.  
  37. There are several algorithms.  The choice depends on the task they're used
  38. for.  The easiest way is to just record the voice of a person speaking the
  39. desired phrases.  This is useful if only a restricted volume of phrases and
  40. sentences is used, e.g. messages in a train station, or schedule information
  41. via phone.  The quality depends on the way recording is done.
  42.  
  43. More sophisticated but worse in quality are algorithms which split the 
  44. speech into smaller pieces.  The smaller those units are, the less are they
  45. in number, but the quality also decreases.  An often used unit is the phoneme,
  46. the smallest linguistic unit.  Depending on the language used there are about
  47. 35-50 phonemes in western European languages, i.e. there are 35-50 single
  48. recordings. The problem is combining them as fluent speech requires fluent
  49. transitions between the elements. The intellegibility is therefore lower, but
  50. the memory required is small.
  51.  
  52. A solution to this dilemma is using diphones. Instead of splitting at the 
  53. transitions, the cut is done at the center of the phonemes, leaving the 
  54. transitions themselves intact. This gives about 400 elements (20*20) and
  55. the quality increases.
  56.  
  57. The longer the units become, the more elements are there, but the quality 
  58. increases along with the memory required. Other units which are widely used
  59. are half-syllables, syllables, words, or combinations of them, e.g. word stems
  60. and inflectional endings.
  61.  
  62. ------------------------------------------------------------------------
  63.  
  64. Q5.3: What are some good references/books on synthesis?
  65.  
  66. The following are good introductory books/articles.
  67.  
  68.    Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  69.    Addison Wesley series in Electrical Engineering: Digital Signal Processing,
  70.    1987.
  71.  
  72.    D. H.  Klatt, "Review of Text-To-Speech Conversion for English", Jnl. of
  73.    the Acoustic Society of America (JASA), v82, Sept. 1987, pp 737-793.
  74.  
  75.    I. H. Witten.   Principles of Computer Speech.
  76.    (London:  Academic Press, Inc., 1982).
  77.  
  78.    John Allen, Sharon Hunnicut and Dennis H. Klatt, "From Text to Speech: 
  79.    The MITalk System", Cambridge University Press, 1987.
  80.  
  81. ------------------------------------------------------------------------
  82.  
  83. Q5.4: What software/hardware is available?
  84.  
  85. In the last year there has been a great increase in the release of speech
  86. synthesis software - both commercial and public domain.  The following is
  87. a list of as many products/packages as I can find out about.  Any help in
  88. keeping this list up-to-date will be appreciated.
  89.  
  90.  
  91.  
  92. Package:    ORATOR Text-to-Speech Synthesizer
  93. Platform:   SUN SPARC, Decstation 5000.  Portable to other UNIX platforms.
  94. Description: Sophisticated speech synthesis package.  Has text preprocessing 
  95.     (for abbreviations, numbers), acronym citation rules, and human-like 
  96.     spelling routines.  High accuracy for pronunciation of names of 
  97.     people, places and businesses in America, text-to-speech translation 
  98.     for common words; rules for stress and intonation marking, based on 
  99.     natural-sounding demisyllable synthesis; various methods of user 
  100.     control and customization at most stages of processing.  Currently, 
  101.     ORATOR is most appropriate for applications containing a large 
  102.     component of names in the text, and requires some amount of user-
  103.     specified text-preprocessing to produce good quality speech for 
  104.     general text.
  105. Hardware: Standard audio output of SPARC, or Decstation audio hardware.
  106.         At least 16M of memory recommended.
  107. Cost:   Binary License: $5,000.  
  108.         Source license for porting or commercial use: $30,000.
  109. Availability: Contact Bellcore's Licensing Office (1-800-527-1080) 
  110.         or email:   jzilg@cc.bellcore.com (John Zilg)
  111.  
  112.  
  113. Package: Text to phoneme program (1)
  114. Platform: unknown
  115. Description: Text to phoneme program.  Based on Naval Research Lab's
  116.     set of text to phoneme rules.
  117. Availability: By FTP from "shark.cse.fau.edu" (131.91.80.13) in the directory
  118.     /pub/src/phon.tar.Z
  119.  
  120.  
  121. Package: Text to phoneme program (2)
  122. Platform: unknown
  123. Description: Text to phoneme program.
  124. Availability: By FTP from "wuarchive.wustl.edu" in the file
  125.     /mirrors/unix-c/utils/phoneme.c
  126.  
  127.  
  128. Package: Text to phoneme program (3)
  129. Description: A public domain version of the same Naval Research Lab 
  130.     text to phoneme rules.
  131. Availability: By anonymous ftp from
  132.     svr-ftp.eng.cam.ac.uk:comp.speech/sources/english2phoneme.shar
  133.  
  134.  
  135. Package: Text to speech program
  136. Description: A implementation of the Klatt phoneme to waveform speech 
  137.     synthesiser.
  138. Availability: By anonymous ftp from
  139.     svr-ftp.eng.cam.ac.uk:comp.speech/sources/klatt-0.02.tar.Z
  140.  
  141.  
  142. Package:      "Speak" - a Text to Speech Program
  143. Platform:     Sun SPARC
  144. Description:  Text to speech program based on concatenation of pre-recorded
  145.     speech segments.  A function library can be used to integrate
  146.     speech output into other code.
  147. Hardware:     SPARC audio I/O
  148. Availability: by FTP from "wilma.cs.brown.edu" as /pub/speak.tar.Z
  149.  
  150.  
  151. Package:      TheBigMouth - a Text to Speech Program
  152. Platform:     NeXT
  153. Description:  Text to speech program based on concatenation of pre-recorded
  154.     speech segments.  NeXT equivalent of "Speak" for Suns.
  155. Availability: try NeXT archive sites such as sonata.cc.purdue.edu.
  156.  
  157.  
  158. Package:  TextToSpeech Kit
  159. Platform:  NeXT Computers
  160. Description: The TextToSpeech Kit does unrestricted conversion of English 
  161.     text to synthesized speech in real-time.  The user has control over
  162.     speaking rate, median pitch, stereo balance, volume, and intonation
  163.     type.  Text of any length can be spoken, and messages can be queued 
  164.     up, from multiple applications if desired.  Real-time controls such 
  165.     as pause, continue, and erase are included.  Pronunciations are 
  166.     derived primarily by dictionary look-up.  The Main Dictionary has 
  167.     nearly 100,000 hand-edited pronunciations which can be supplemented 
  168.     or overridden with the User and Application dictionaries.  A number 
  169.     parser handles numbers in any form.  A letter-to-sound knowledge base 
  170.     provides pronunciations for words not in the Main or customized 
  171.     dictionaries.  Dictionary search order is under user control.  
  172.     Special modes of text input are available for spelling and emphasis 
  173.     of words or phrases.  The actual conversion of text to speech is done 
  174.     by the TextToSpeech Server.  The Server runs as an independent task 
  175.     in the background, and can handle up to 50 client connections.
  176. Misc: The TextToSpeech Kit comes in two packages: the Developer Kit and the
  177.     User Kit.  The Developer Kit enables developers to build and test
  178.     applications which incorporate text-to-speech.  It includes the
  179.     TextToSpeech Server, the TextToSpeech Object, the pronunciation 
  180.     editor PrEditor, several example applications, phonetic fonts, 
  181.     example source code, and developer documentation.  The User Kit 
  182.     provides support for applications which incorporate text-to-speech.  
  183.     It is a subset of the Developer Kit.
  184. Hardware:  Uses standard NeXT Computer hardware.
  185. Cost:  TextToSpeech User Kit:  $175 CDN ($145 US)
  186.        TextToSpeech Developer Kit:  $350 CDN ($290 US)
  187.        Upgrade from User to Developer Kit:  $175 CDN ($145 US)
  188. Availability:  Trillium Sound Research
  189.     1500, 112 - 4th Ave. S.W., Calgary, Alberta, Canada, T2P 0H3
  190.     Tel: (403) 284-9278    Fax:  (403) 282-6778
  191.     Order Desk:  1-800-L-ORATOR (US and Canada only)
  192.     Email:  TTSInfo@trillium.ab.ca
  193.  
  194.  
  195. Package: SGI Developers Toolbox Synthesiser
  196. Platform: SGI
  197. Description: The SGI Developer Toolbox 4.0 CDROM contains a basic 
  198.     public domain text-to-speech program in the publics/speak
  199.     directory.  The directory includes man pages and source.
  200. Availability: on the SGI Developer Toolbox 4.0 CDROM
  201.  
  202.  
  203. Package: rsynth
  204. Platform: Various (including Sun, Linux, NeXT, SGI)
  205. Description: Text-to-speech converter produced by combination of
  206.     various public-domain pieces.
  207. Price: Free
  208. Availability: by anonymous ftp from
  209.     svr-ftp.eng.cam.ac.uk:/comp.speech/sources/rsynth-1.0.tar.Z
  210.     svr-ftp.eng.cam.ac.uk:/comp.speech/sources/rsynth-1.0.tar.gz
  211.  
  212.  
  213. Package:     SENSYN speech synthesizer
  214. Platform:    PC, Mac, Sun, and NeXt
  215. Rough Cost:  $300
  216. Description: This formant synthesizer produces speech waveform files
  217.     based on the (Klatt) KLSYN88 synthesizer.  It is intended
  218.         for laboratory and research use.  Note that this is NOT a
  219.     text-to-speech synthesizer, but creates speech sounds based
  220.     upon a large number of input variables (formant frequencies,
  221.     bandwidths, glottal pulse characteristics, etc.) and would
  222.     be used as part of a TTS system. Includes full source code.
  223. Availability: Sensimetrics Corporation, 64 Sidney Street, Cambridge MA 02139.
  224.     Fax: (617) 225-0470; Tel: (617) 225-2442.
  225.     Email: sensimetrics@sens.com
  226.  
  227.  
  228. Package:     SPCHSYN.EXE
  229. Platform:    PC?
  230. Availability: By anonymous ftp from evans.ee.adfa.oz.au (131.236.30.24)
  231.     in /mirrors/tibbs/Applications/SPCHSYN.EXE
  232.     It is a self extracting DOS archive.
  233. Requirements: May require special TI product(s), but all source is there.
  234.  
  235.  
  236. Package:      CSRE: Canadian Speech Research Environment
  237. Platform:     PC
  238. Cost:         Distributed on a cost recovery basis
  239. Description:  CSRE is a software system which includes in addition to the 
  240.     Klatt speech synthesizer, SPEECH ANALYSIS and EXPERIMENT CONTROL 
  241.     SYSTEM. A paper about the whole package can be found in:
  242.       Jamieson D.G. et al, "CSRE: A Speech Research Environment", Proc. 
  243.       of the Second Intl. Conf. on Spoken Language Processing, Edmonton: 
  244.       University of Alberta, pp. 1127-1130.
  245. Hardware:     Can use a range of data aqcuisition/DSP
  246. Availability: For more information about the availability of this software 
  247.     contact Krystyna Marciniak - email march@uwovax.uwo.ca
  248.     Tel (519) 661-3901  Fax (519) 661-3805.
  249.     For technical information email ramji@uwovax.uwo.ca
  250. Note: A more detailed description is given in Q1.8 on speech environments.
  251.  
  252.  
  253. Package:      Eloquence (currently an alpha release)
  254. Platform:     Windows and Solaris
  255. Description:  Software based text-to-speech package.  Generates waveforms 
  256.     completely algorithmically instead of by concatenating waveforms, 
  257.     for maximum flexibility and naturalism.  For instance, when the 
  258.     user requests a deeper voice, the software simulates a larger vocal 
  259.     tract, instead of simply pitch-shifting samples.
  260.     Uses high-level linguistic parsing, which obviates the need for a 
  261.     huge dictionary.  Handles numbers, acronyms, currency, etc.
  262.     Includes a set of annotation symbols, for placing stress on particular
  263.     words, expressing excitement/boredom, etc.  Also allows phonetic input.
  264.     The final version, including support for Windows DDE and OLE and 
  265.     UNIX Sockets, will be released by the end of 1994.
  266.     Produces male and female voices for General American English.  
  267.     Dialects under development include Alabama, Brooklyn, and Boston.
  268. Price:          $5000 (unconfirmed)
  269. Availability: Eloquent Technology, Inc.
  270.     24 Highgate Circle
  271.     Ithaca, NY  14850
  272.     Ph: (607) 257-6829    Fax: (607) 272-0058
  273.  
  274.  
  275. Package:      JSRU
  276. Platform:     UNIX and PC
  277. Cost:         100 pounds sterling (from academic institutions and industry)
  278. Description:  A C version of the JSRU system, Version 2.3 is available.
  279.     It's written in Turbo C but runs on most Unix systems with very
  280.     little modification.  A Form of Agreement must be signed to say 
  281.     that the software is required for research and development only.
  282. Contact:      Dr. E.Lewis (eric.lewis@uk.ac.bristol)
  283.  
  284.  
  285. Package:      Klatt-style synthesiser
  286. Platform:     Unix
  287. Cost:         Free
  288. Description:  Software posted to comp.speech in late 1992.
  289. Availability: By anonymous ftp from the comp.speech archives as
  290.     svr-ftp.eng.cam.ac.uk:/comp.speech/sources/klatt-0.02.tar.Z
  291.  
  292.  
  293. Package:      Speech Manager and PlainTalk
  294. Platform:     Macintosh
  295. Cost:          Free
  296. Description:  Apple's new text-to-speech system extension(s) that enable
  297.     applications (listed below) to perform text-to-speech
  298.     conversion.  The Speech Manager runs on most Macs, but PlainTalk
  299.     (and the high quality voices) requires a 68020 Mac or better.
  300. Availability: By anonymous ftp from:
  301.         ftp.apple.com:/dts/mac/sys.soft/speech
  302.     There are 3 files in this directory:
  303.         6273632 Aug 14 22:51 macintalk-pro.hqx
  304.                      PlainTalk Text-To-Speech 1.0 speech synthesizer
  305.                      extension (includes Female Voice, Compressed);
  306.                      TTS Female Voice; TTS Male Voice; and
  307.                      TTS Male Voice, Compressed. Requires 68020 or better!
  308.          370108 Aug 13 04:30 speech-manager-docs.hqx
  309.                      Apple DocViewer format (Inside Macintosh style,
  310.                      no installation instructions - just drag everything
  311.                      onto your closed System Folder).
  312.          262569 Aug  7 07:01 speech-manager.hqx
  313.                      Speech Manager 1.1.1 (includes Marvin's voice) and
  314.                      MacInTalk Voices 1.1.1 (9 more voices). Runs most Macs.
  315.  
  316.  
  317. Package:      Various Mac Speech Output Applications
  318. Platform:     Macintosh
  319. Cost:         Free (except for At Ease)
  320. Description:  Some of the Speech Manager aware text-to-speech (TTS)
  321.     applications, etc. are listed below (there are more on the 
  322.     Apple Developer CD-ROMs).
  323.  
  324. Application, etc.  Source            Comments
  325. _________________ ________  _________________________________________________ 
  326. AddressSpeech     info-mac  4D talking address book (from Speech Pack 2.0)
  327. At Ease 2.0    MacWarehouse Friendly desktop that speaks file names
  328. At Ease 2.0 WG MacWarehouse Friendly desktop that speaks file names
  329. Eliza 3.1            AOL    Talking Eliza (Rogerian psych therapist)
  330. FB speech      Inside Basic Mag, volume 3, no. 6. FutureBasic demo
  331. FB Speech demo Inside Basic Mag, volume 3, no. 7. FutureBasic demo
  332. Fortune 1.1       info-mac  Like a talking UNIX fortune command - slick
  333. Homer 0.92d9  zaphod.ee.pitt.edu  GUI IRC client, assign nicks voices - slick
  334. MacMessage 1.0  FirstClassBBS  Share talking messages/customizable startup
  335. Say               info-mac  MPW Tool which converts standard input to speech
  336. ScriptTools 1.2   info-mac  Write AppleScript scripts to say text messages
  337. Siege Watch 1.01f info-mac  Wryly political speaking clock
  338. SoToSpeak1.0.0b10 info-mac  Two voice conversation (also see Fortune's About)
  339. Speak It!         info-mac  Type in a message and have it spoken
  340. Speaker 1.11      info-mac  Simple text file editor, speaks on <CR>, macros
  341. Speecher 1.2.1    info-mac  Customizable word pronunciation/substitution
  342. SpeechManagerdemo info-mac  Command line interface, C source, aka -explorer
  343. Speech Pack 2.0   info-mac  4th Dimension external, add speech to database
  344. SpeechUnitEx      info-mac  Pascal source code for speech in Lab 7
  345. speek-02b         info-mac  Speech XCMD for HyperCard
  346. TalkingClockPro2.0info-mac  AppleScriptable talking clock extension (2.0b0)
  347. TeachText 7.2      AV Mac   Apple's talking TeachText (simple editor w/QT)
  348. Tex-Edit 1.9         AOL    Talking word processor, McSink like, modeming
  349. VoiceDemo 1.0.1   info-mac  Bare bones phrase talker
  350. Welcome!v1.3.1    info-mac  A talking Welcome to Macintosh startup
  351. ?                     ?     Talking Plug-In-Module for MS Word 5,
  352.                                experimental, unsupported, buggy, beware!
  353. Speech Rhythms       AOL    A cool text file for one of the above apps
  354. _____
  355. Sources:
  356. AOL = America Online
  357. info-mac = {ftp sumex-aim.stanford.edu, ftp wuarchive.wustl.edu, et al.}
  358. MacWarehouse = (800) 255-6227
  359.  
  360. Apple's work in spoken language technologies and systems is described in:
  361. Lee, Kai-Fu. "The Conversational Computer: An Apple Perspective."
  362. (Keynote Speech) In Proc. Eurospeech in Berlin, ESCA, September, 1993.
  363.  
  364.  
  365. Package:      MacinTalk
  366. Platform:     Macintosh
  367. Cost:         Free
  368. Description:  Formant based speech synthesis.
  369.     There is also a program called "tex-edit" which apparently
  370.     can pronounce English sentences reasonably using Macintalk.
  371. Note:     MacinTalk doesn't run reliably on Macintosh's with new 
  372.     sound hardware under the lastest OS (System 7.1 w/HUD 2.0).
  373.     More recent software is listed above.
  374. Availability: By anonymous ftp from many archive sites (have a look on
  375.     archie if you can).  tex-edit is on many of the same sites. Try
  376.     wuarchive.wustl.edu:/mirrors2/info-mac/Old/card/macintalk.hqx[.Z]
  377.                                                        /macintalk-stack.hqx[.Z]
  378.     wuarchive.wustl.edu:/mirrors2/info-mac/app/tex-edit-15.hqx
  379.  
  380.  
  381. Package: Lernout & Hauspie Text-To-Speech SDK
  382. Platform: IBM-Compatible
  383. Description: The L&H Text-to-Speech software developers kit is able
  384.     to integrate text-to-speech technology with your own or existing 
  385.     PC applications under Microsoft Windows 3.1.  This software will 
  386.     allow conversion of written text into clear human sounding synthetic 
  387.     speech.
  388. Requirements: IBM-compatible PC 386 DX(33Mhz) or higher, 8Mb RAM, 
  389.     MS DOS 5.0(or higher), MS Windows 3.1 (or higher), 
  390.     Compiler and linker: Microsoft(R) Visual C++ or Borland C++,
  391.     Windows(TM) 3.1 compatible sound card, preferably 16 bit
  392.     e.g. Soundblaster, Windows Sounds System, Pro Audio Spectrum
  393. Price: Unconfirmed $1,999 per copy, and $499 per each additional language 
  394.     (American English, French, German, or Spanish).
  395. Contact: USA (617) 932-4118
  396.  
  397.  
  398. Package: Tinytalk
  399. Platform: PC
  400. Description: Shareware package is a speech 'screen reader' which is use 
  401.     by many blind users.
  402. Availability: By anonymous ftp from handicap.shel.isc-br.com.
  403.     Get the files /speech/ttexe145.zip & /speech/ttdoc145.zip.
  404.  
  405.  
  406. Package:     Narrator - narrator.device
  407. Platform:    Amiga
  408. Description: Formant based speech synthesis. Includes a Engish-to-phoneme
  409.              translation library, and a SPEAK: pseudo-device for speech
  410.              output.
  411. Hardware:    Standard Amiga hardware
  412. Availability: Part of AmigaOS
  413.  
  414.  
  415. Product Series: Infovox
  416. Description: Multilingual Text-to-speech systems, languages available: 
  417.     American English, British English, German, French, Spanish, 
  418.     Italian, Swedish, Norwegian, Icelandic, Danish and Finnish.
  419. Product name: INFOVOX 500, PC BOARD
  420.       * Product description: Half length expansion board for IBM PC, XT, AT, 
  421.     PS/2 model 30 or compatible personal computers. The board can 
  422.     also be connected via the serial port. Language and control program 
  423.     for downloading into RAM or mounted on EPROMs.
  424.       * Platform: for IBM PC, XT, AT, PS/2 model 30 or compatible
  425. Product name: INFOVOX 600, OEM BOARD
  426.       * Product description: OEM board built with CMOS IC's. Language and 
  427.     control program are stored in on-board fixed memory.
  428.       * Platform: any, Interface: 9-pole D-SUB (RS 232-C) 300-9600 Baud 
  429. Product name: INFOVOX 700, DESKTOP UNIT
  430.       * Product description: Desktop unit with built in Infovox 600 to be 
  431.     connected to any computer or terminal via an RS 232-C serial 
  432.     interface. Built in loudspeaker and rechargable battery for 4 hours 
  433.     use, and control knobs for continuous control of speech volume and 
  434.     speed.
  435.       * Platform: any
  436. Product name: INFOVOX 650, OEM BOARD
  437.       * Product description: OEM-board built with CMOS IC's. Language and 
  438.     control program are stored in on-board memory.
  439.       * Platform:any, Interface: 9 pole D-SUB (RS 232-C) 300-9600 Baud 
  440. Product name: INFOVOX 750, DESKTOP UNIT
  441.       * Product description: Desktop unit with built in Infovox 650 to be 
  442.     connected to any computer or terminal via an RS 232-C serial 
  443.     interface. Built in loudspeaker and rechargable battery for 5 hours 
  444.     use, and a control knob for continuous control of speech volume.
  445.       * Platform: any
  446. Misc: Infovox multi-lingual Text-to-Speech Technologies can interface with 
  447.     Apple's PlainTalk System.  It enables Apple Third party developers 
  448.     to write application software with synthetic speech output using 
  449.     their usual Apple Plain Talk Text-to-Speech interface.  Software 
  450.     already written for the English speaking market using Apple Plain 
  451.     Talk can be now distributed worldwide, provided message strings 
  452.     are translated.
  453. Contact: TELIA PROMOTOR INFOVOX AB
  454.     TTS Sales Division
  455.     P.O. Box 2069
  456.     S-171 02  Solna, Sweden
  457.     Ph: +46 8 764 35 00   Fax: +46 8 735 78 76
  458.     email: tts-sales@infovox.se
  459.  
  460.  
  461. SIMTEL-20
  462.     The following is a list of speech related software available from 
  463.     SIMTEL-20 and its mirror sites for PCs.  
  464.     The SIMTEL internet address is WSMR-SIMTEL20.Army.Mil [192.88.110.20]
  465.     Try looking at your nearest archive site first.
  466. Directory PD1:<MSDOS.VOICE>
  467.  Filename   Type Length   Date   Description
  468.  ==============================================
  469.  AUTOTALK.ARC  B   23618  881216  Digitized speech for the PC
  470.  CVOICE.ARC    B   21335  891113  Tells time via voice response on PC
  471.  HEARTYPE.ARC  B   10112  880422  Hear what you are typing, crude voice synth.
  472.  HELPME2.ARC   B    8031  871130  Voice cries out 'Help Me!' from PC speaker
  473.  SAY.ARC       B   20224  860330  Computer Speech - using phonemes
  474.  SPEECH98.ZIP  B   41003  910628  Build speech (voice) on PC using 98 phonemes
  475.  TALK.ARC      B    8576  861109  BASIC program to demo talking on a PC speaker
  476.  TRAN.ARC      B   39766  890715  Repeats typed text in digital voice
  477.  VDIGIT.ZIP    B  196284  901223  Toolkit: Add digitized voice to your programs
  478.  VGREET.ARC    B   45281  900117  Voice says good morning/afternoon/evening
  479.  
  480.  
  481.  
  482. Package: Bliss
  483. Contact: Dr. John Merus (Brown University) Mertus@browncog.bitnet
  484.  
  485.  
  486. Package:      xxx
  487. Platform:     (PC, Mac, Sun, NeXt etc)
  488. Rough Cost:   (if appropriate)
  489. Description:  (keep it brief)
  490. Hardware:     (requirement list)
  491. Availability: (ftp info, email contact or company contact)
  492.  
  493.  
  494.  
  495. Can anyone provide information on the following:
  496.  
  497.     MultiVoice
  498.     Monolog
  499.     TrueSpeech from DSP Group Inc.
  500.     The range of recently released Windows products
  501.  
  502. Please email or post suitable information for this list.  Commercial,
  503. public domain and research packages are all appropriate.  
  504.  
  505.  
  506.  
  507. =======================================================================
  508.  
  509. SECTION 6 - Speech Recognition
  510.  
  511. Q6.1: What is speech recognition?
  512.  
  513. Automatic speech recognition is the process by which a computer maps an 
  514. acoustic speech signal to text.
  515.  
  516. Automatic speech understanding is the process by which a computer maps an 
  517. acoustic speech signal to some form of abstract meaning of the speech.
  518.  
  519. ------------------------------------------------------------------------
  520.  
  521. Q6.2: How can I build a very simple speech recogniser?
  522.  
  523. Doug Danforth provides a detailed account in article 253 in the comp.speech
  524. archives - also available as file info/DIY_Speech_Recognition.
  525.  
  526. The first part is reproduced here.
  527.  
  528.   QUICKY RECOGNIZER sketch:
  529.   
  530.   Here is a simple recognizer that should give you 85%+ recognition
  531.   accuracy.  The accuracy is a function of WHAT words you have in
  532.   your vocabulary.  Long distinct words are easy.  Short similar
  533.   words are hard.  You can get 98+% on the digits with this recognizer.
  534.   
  535.   Overview:
  536.   (1) Find the begining and end of the utterance.
  537.   (2) Filter the raw signal into frequency bands.
  538.   (3) Cut the utterance into a fixed number of segments.
  539.   (4) Average data for each band in each segment.
  540.   (5) Store this pattern with its name.
  541.   (6) Collect training set of about 3 repetitions of each pattern (word).
  542.   (7) Recognize unknown by comparing its pattern against all patterns
  543.       in the training set and returning the name of the pattern closest
  544.       to the unknown.
  545.  
  546. Many variations upon the theme can be made to improve the performance.
  547. Try different filtering of the raw signal and different processing methods.
  548.  
  549. ------------------------------------------------------------------------
  550.  
  551. Q6.2: What does speaker dependent/adaptive/independent mean?
  552.  
  553. A speaker dependent system is developed (trained) to operate for a single
  554. speaker.  These systems are usually easier to develop, cheaper to buy and
  555. more accurate, but are not as flexible as speaker adaptive or speaker
  556. independent systems.
  557.  
  558. A speaker independent system is developed (trained) to operate for any
  559. speaker or speakers of a particular type (e.g. male/female, American/English).
  560. These systems are the most difficult to develop, most expensive and currently
  561. accuracy is not as good.  They are the most flexible.
  562.  
  563. A speaker adaptive system is developed to adapt its operation for new 
  564. speakers that it encounters usually based on a general model of speaker
  565. characteristics.  It lies somewhere between speaker independent and speaker 
  566. dependent systems.
  567.  
  568. Each type of system is suited to different applications and domains.
  569.  
  570. ------------------------------------------------------------------------
  571.  
  572. Q6.3: What does small/medium/large/very-large vocabulary mean?
  573.  
  574. The size of vocabulary of a speech recognition system affects the complexity,
  575. processing requirements and the accuracy of the system.  Some applications
  576. only require a few words (e.g. numbers only), others require very large 
  577. dictionaries (e.g. dictation machines).
  578.  
  579. There are no established definitions but the following may be a helpful guide.
  580.  
  581.     small vocabulary - tens of words
  582.     medium vocabulary - hundreds of words
  583.     large vocabulary - thousands of words
  584.     very-large vocabulary - tens of thousands of words.
  585.  
  586. ------------------------------------------------------------------------
  587.  
  588. Q6.4: What does continuous speech or isolated-word mean?
  589.  
  590. An isolated-word system operates on single words at a time - requiring a 
  591. pause between saying each word.  This is the simplest form of recognition 
  592. to perform, because the pronunciation of the words tends not affect each 
  593. other.  Because the occurrences of each particular word are similar they are 
  594. easier to recognise.
  595.  
  596. A continuous speech system operates on speech in which words are connected
  597. together, i.e. not separated by pauses.  Continuous speech is more difficult
  598. to handle because of a variety of effects.  First, it is difficult to find
  599. the start and end points of words.  Another problem is "coarticulation".
  600. The production of each phoneme is affected by the production of surrounding
  601. phonemes, and similarly the the start and end of words are affected by the 
  602. preceding and following words.  The recognition of continuous speech is also 
  603. affected by the rate of speech (fast speech tends to be harder).
  604.  
  605. ------------------------------------------------------------------------
  606.  
  607. Q6.5: How is speech recognition done?
  608.  
  609. A wide variety of techniques are used to perform speech recognition. 
  610. There are many types of speech recognition.  There are many levels of
  611. speech recognition/processing/understanding.
  612.  
  613. Typically speech recognition starts with the digital sampling of speech.
  614. The next stage would be acoustic signal processing.  Common techniques 
  615. include a variety of spectral analyses, LPC analysis, the cepstral transform,
  616. cochlea modelling and many, many more.
  617.  
  618. The next stage will typically try to recognise phonemes, groups of phonemes 
  619. or words.  This stage can be achieved by many processes such as DTW (Dynamic
  620. Time Warping),  HMM (hidden Markov modelling), NNs (Neural Networks), and
  621. sometimes expert systems.  In crude terms, all these processes to recognise
  622. the patterns of speech.  The most advanced systems are statistically 
  623. motivated.
  624.  
  625. Some systems utilise knowledge of grammar to help with the recognition 
  626. process.
  627.  
  628. Some systems attempt to utilise prosody (pitch, stress, rhythm etc) to
  629. process the speech input.
  630.  
  631. Some systems try to "understand" speech.  That is, they try to convert the
  632. words into a representation of what the speaker intended to mean or achieve
  633. by what they said.
  634.  
  635. ------------------------------------------------------------------------
  636.  
  637. Q6.6: What are some good references/books on recognition?
  638.  
  639. Some general introduction books on speech recognition:
  640.  
  641.    Fundamentals of Speech Recognition; Lawrence Rabiner & Biing-Hwang Juang
  642.    Englewood Cliffs NJ: PTR Prentice Hall (Signal Processing Series), c1993
  643.    ISBN 0-13-015157-2
  644.  
  645.    Speech recognition by machine; W.A. Ainsworth
  646.    London: Peregrinus for the Institution of Electrical Engineers, c1988
  647.  
  648.    Speech synthesis and recognition; J.N. Holmes
  649.    Wokingham: Van Nostrand Reinhold, c1988
  650.  
  651.    Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  652.    Addison Wesley series in Electrical Engineering: Digital Signal Processing,
  653.    1987.
  654.  
  655.    Electronic speech recognition: techniques, technology and applications
  656.    edited by Geoff Bristow,  London: Collins, 1986
  657.  
  658.    Readings in Speech Recognition; edited by Alex Waibel & Kai-Fu Lee.
  659.    San Mateo: Morgan Kaufmann, c1990
  660.  
  661. More specific books/articles:
  662.  
  663.    Hidden Markov models for speech recognition; X.D. Huang, Y. Ariki, M.A. Jack.
  664.    Edinburgh: Edinburgh University Press, c1990
  665.  
  666.    Automatic speech recognition: the development of the SPHINX system;
  667.    by Kai-Fu Lee; Boston; London: Kluwer Academic, c1989
  668.  
  669.    Prosody and speech recognition; Alex Waibel
  670.    (Pitman: London) (Morgan Kaufmann: San Mateo, Calif) 1988
  671.  
  672.    S. E. Levinson, L. R. Rabiner and M. M. Sondhi, "An Introduction to the 
  673.    Application of the Theory of Probabilistic Functions of a Markov Process 
  674.    to Automatic Speech Recognition" in Bell Syst. Tech. Jnl. v62(4),
  675.    pp1035--1074, April 1983
  676.  
  677.    R. P. Lippmann, "Review of Neural Networks for Speech Recognition", in
  678.    Neural Computation, v1(1), pp 1-38, 1989.
  679.  
  680. ------------------------------------------------------------------------
  681.  
  682. Q6.7: What speech recognition packages are available?
  683.  
  684. Information is included below on the following packages:-
  685.  
  686.     Voice Blaster Ver. 4.0
  687.     Votan
  688.     HTK (HMM Toolkit)
  689.     DragonDictate
  690.     VoiceServer for Windows
  691.     IN3 Voice Command for Windows
  692.     IN3 Voice Command
  693.     SayIt
  694.     Recnet
  695.     Voice Command Line Interface
  696.     DATAVOX
  697.  
  698.  
  699. Package Name: Voice Blaster Ver. 4.0
  700. Platform: IBM AT or higher,  DOS or Wndows 3.1
  701. Description: Uses a Sound Blaster or compatible board.  Contains a
  702.     microphone headset and a connector for LPT1:.  A printer can 
  703.     still be used on LPT1:.  Will recognize 1024 words that are 
  704.     trained by the operator.  Each word activates a macro that can 
  705.     enter an ascii word on the screen or into a word processor or 
  706.     invoke a batch file.  An optional footswitch may be installed.
  707.     Software to run under DOS or Windows 3.1 is included.
  708. Cost:   Around $150 Canadian.
  709. Contact: COVOX Inc.
  710.     675 Conger Street
  711.     Eugene, Oregon
  712.     97402
  713.     Ph:  (503) 342-1271   Fax: (503) 342-1283
  714.     BBS: (503) 342-4135
  715.  
  716.  
  717. Package Name: Votan
  718. Platform: MS-DOS, SCO UNIX
  719. Description: Isolated word and continuous speech modes, speaker dependant
  720.     and (limited) speaker independent.  Vocab size is 255 words or up to a 
  721.     fixed memory limit - but it is possible to dynamically load different 
  722.     words for effectively unlimited number of words.
  723. Rough Cost: Approx US $1,000-$1,500
  724. Requirements: Cost includes one Votan Voice Recognition ISA-bus board
  725.     for 386/486-based machines.  A software development system is also 
  726.     available for DOS and Unix.
  727. Misc:    Up to 8 Votan boards may co-exist for 8 simultaneous voice users. 
  728.     A telephone interface is also available. There is also a 4GL and a 
  729.     software development system.
  730.     Apparently there is more than  one version - more info required.
  731. Contact: 800-877-4756, 510-426-5600
  732.  
  733.  
  734. Package Name: HTK (HMM Toolkit) - From Entropic
  735. Platform: Range of Unix platforms.
  736. Description: HTK is a software toolkit for building continuous density HMM
  737.     based speech recognisers.  It consists of a number of library 
  738.     modules and a number of tools.  Functions include speech analysis, 
  739.     training tools, recognition tools, results analysis, and an 
  740.     interactive tool for speech labelling. Many standard forms of 
  741.     continuous density HMM are possible.  Can perform isolated word or 
  742.     connected word speech recognition.  It van model whole words, sub-
  743.     word units.  Can perform speaker verification and other pattern 
  744.     recognition work using HMMs.  HTK is now integerated with the
  745.     ESPS/Waves speech research environment which is described in
  746.     Section 1.8 of this posting.
  747. Misc: The availability of HTK changed in early 1993 when Entropic obtained
  748.     exclusive marketing rights to HTK from the developers at Cambridge.
  749. Cost: On request.
  750. Contact: Entropic Research Laboratory, Washington Research Laboratory,
  751.     600 Pennsylvania Ave, S.E. Suite 202, Washington, D.C. 20003
  752.     (202) 547-1420.  email - info@wrl.epi.com
  753.  
  754.  
  755. Package Name: DragonDictate-30K
  756. Platform:     PC
  757. Description:  Speaker dependent/adaptive system requiring words to be
  758.     separated by short pauses.  Vocabulary of 25,000 words including
  759.     a "custom" word set.
  760. Rough Cost:   $5000
  761. Requirements: Minimum of 20 Mhz 386 with 8M memory and 10M disk space
  762. Contact:      Dragon Systems Inc.
  763.     90 Bridge Street, Newton MA 02158
  764.         Tel: 1-617-965-5200,  Fax: 1-617-527-0372
  765.  
  766.  
  767. Package Name: VoiceServer for Windows
  768. Platform:     PC
  769. Description:  Speaker dependent, each with an independent directory.
  770.     Isolated word.  Upto 1000 words/user, 300 words/window.
  771.     1 word occupies 2Kb on hard disk.
  772.     Can be used to control Windows applications by issuing
  773.     voice commands instead of menu selection.
  774. Rough Cost:   292 Pounds(UK)
  775. Requirements: None
  776. Misc:         Price includes a half-sized AT voice card (including a 
  777.     DSP), software, documentation & a microphone (attachable to 
  778.     keyboard or speaker).  A light-weight high-spec headset is an 
  779.           optional extra.
  780. Contact:      Mark Redwood
  781.               Applied Voice Technologies
  782.               26 Danbury Street, Islington,
  783.               London, UK, N1 8JU
  784.               Ph: + 44 71 454 1224  :  Fax: + 44 71 454 1225
  785.  
  786.  
  787. Package Name:    IN3 Voice Command for Windows
  788. Platform:    PC with Windows 3.1
  789. Description:    IN3 is now available for MS-Windows.  Users can call 
  790.     applications to the foreground with voice commands.  Once the 
  791.     application is called, the user may enter commands and data with 
  792.     voice commands.  Voice macros can reduce the strain of repetitive 
  793.     stress injuries (RSI) such as Carpel Tunnel Syndrome (CTS) by 
  794.     replacing heavy repetitive keyboard hammering with simple voice 
  795.     operations.  Voice macros take complex operations and reduce them 
  796.     to simple verbal commands.  Voice input can provide new facilities
  797.     for tasks which could not easily have been otherwise performed 
  798.     without the multiple axis of input.  IN3 is hardware-independent, 
  799.     users with any Windows-compatible audio add speech recognition to 
  800.     the desktop.  IN3 works with either 8 bit or 16 bit Windows audio 
  801.     boards. IN3 is based on continuous word-spotting technology.  A 
  802.     developer API is also available for creating voice-enabled 
  803.     applications.
  804. Price: $179 U.S.
  805. Requirements:    PC with 80386 processor or better, Microsoft Windows 3.1, and
  806.         Windows compatible audio system with microphone.
  807. Misc:    Fully functional demos are available on Compuserve in various
  808.     Multimedia and CAD forums.  Demos are also available from "America
  809.     on Line", the comp.binaries.ms-windows archive sites, and various
  810.     BBS systems.  It is also available by anonymous ftp as
  811.         ftp.wustl.edu:/usenet/comp.binaries.ms-windows/v3/in3demo.zip
  812.         ftp.uwasa.fi:/mirror/ultrasound/demo/in3demo.zip
  813.     An equivilant Sun product is described below.
  814. Contact: Brantley Kelly
  815.      Email: cbk@gacc.atl.ga.us   CIS: 75120,431
  816.      FAX: 1-404-925-7924         Phone: 1-404-925-7950
  817.      Command Corp. Inc, 3675 Crestwood Parkway, Duluth GA 30136, USA
  818.  
  819.  
  820.  
  821. Package Name:    IN3 Voice Command
  822. Platform:    Sun SPARCstation
  823. Description:    IN3 provides a secure, robust, word spotting, continuous 
  824.     speech recognition facility for the Sun OS or Solaris operating 
  825.     systems.  The recognition system is a secure operating system
  826.     facility capable of working with various interfaces, microphones, 
  827.     and devices.  The operating system interface works with native UNIX
  828.     outside of X Windows as well as provides enhanced X Windows facilities
  829.     including named window support.  The user interface provides a
  830.     means to quickly create commands on the fly for replacing long strings
  831.     and complex operations with voice macros.  [Voice macros can reduce
  832.     the strain of repetitive stress injuries (RSI) such as Carpel Tunnel
  833.     Syndrome (CTS) by replacing heavy repetitive keyboard hammering with
  834.     simple voice operations.  ]
  835.     The IN3 user interface works with generic X servers and window 
  836.     managers.  A developer API is also available for creating voice-
  837.     enabled applications, interfacing with other audio sources, and 
  838.     providing extensive application control over the recognition facility.
  839. Availability: SunSite archive at SunSITE.unc.edu as well as on Catalyst
  840.     CDware as both a runable demo and unlockable software.
  841. Hardware Required: Sun SPARCstation with audio input.
  842.     Noise canceling microphone recommended but not required.
  843. Software Required:    Sun OS 4.1.2 with OpenWindows 3.0 or
  844.             Sun OS 4.1.3 or
  845.             Solaris 2.1 or Solaris 2.2
  846. Misc:    An equivilant MS-Windows product is described above.
  847. Price:  $495 U.S.
  848. Contact: Brantley Kelly
  849.     Email: cbk@gacc.atl.ga.us   CIS: 75120,431
  850.     FAX: 1-404-925-7924         Phone: 1-404-925-7950
  851.     Command Corp. Inc, 3675 Crestwood Parkway, Duluth GA 30136, USA
  852.  
  853.  
  854. Package Name: Phonetic Engine 400 (PE400) - Speech Systems, Inc.
  855. Platform:     PC
  856. Description:  Speaker independent, large vocabulary, continuous speech
  857.     recognition for MS Windows or DOS.
  858. Rough Cost: $1195 US dollars.  Includes board, microphone, developer kit,
  859.     documentation, 2 days of technical training and 90 days of
  860.     technical support.
  861. Requirements: IBM AT class machine or better plus 5M disk space.  Most 
  862.     processing is performed on-board (4M standard or 16M upgrade).
  863. Misc: Requires developer to provide a context-free grammar.
  864.     Vocabulary size unknown (quotes from 500 - 2000 words per grammar),
  865.     but dynamic grammar switching capabilities may increase the
  866.     effective vocabulary size.
  867.     Development system includes lower-level C,C++ library (VoiceLib),
  868.     higher-level DLL (SPOT) callable from many languages, SPOT/VBX,
  869.     a custom control for Visual Basic and Visual C++.
  870. Contact: Speech Systems, Inc.
  871.         2945 Center Green Court South
  872.         Boulder, CO 80301-2275, USA
  873.         Tel: 303.938.1110  Fax: 303.938.1874
  874.  
  875.  
  876. Package Name: SayIt
  877. Platform:     Sun SPARCstation
  878. Description:  Voice recognition and macro building package for Suns
  879.     in the Openwindows 3.0 environment.  Speaker dependent discrete speech 
  880.     recognition. Vocabularies can be associated to applications and the
  881.     active vocabulary follows the application that has input focus.
  882.     Macros can include mouse commands, keystrokes, Unix commands, 
  883.     sound, Openwindow actions and more.  
  884.     An evaluation copy is available by email.
  885. Hardware:     Microphone required (SunMicrophone is fine).
  886. Cost:         $US295
  887. Contact:      Phone: 1-800-245-UNIX or 1-415-572-0200
  888.     Fax: 1-415-572-1300
  889.     Email: info@qualix.com
  890.  
  891.  
  892. Package Name: recnet
  893. Platform:     UNIX
  894. Description:  Speech recognition for the speaker independent TIMIT and 
  895.     Resource Management tasks.  It uses recurrent networks to estimate 
  896.     phone probabilities and Markov models to find the most probable 
  897.     sequence of phones or words.  The system is a snapshot of evolving 
  898.     research code.  There is no documentation other than published 
  899.     research papers.  The components are:
  900.     1. A preprocessor which implements many standard and many non-
  901.     standard front end processing techniques.
  902.     2. A recurrent net recogniser and parameter files
  903.     3. Two Markov model based recognisers, one for phone recognition 
  904.     and one for word recognition
  905.     4. A dynamic programming scoring package
  906.     The complete system performs competatively.
  907. Cost:         Free
  908. Requirements: TIMIT and Resource Management databases
  909. Contact:      ajr@eng.cam.ac.uk (Tony Robinson)
  910. Availability: by FTP from "svr-ftp.eng.cam.ac.uk" as /misc/recnet-1.3.tar.Z
  911.  
  912.  
  913. Package Name: Voice Command Line Interface
  914. Platform:     Amiga
  915. Description:  VCLI will execute CLI commands, ARexx commands, or ARexx 
  916.     scripts by voice command through your audio digitizer. VCLI allows 
  917.     you to launch multiple applications or control any program with an 
  918.     ARexx capability entirely by spoken voice command. VCLI is fully 
  919.     multitasking and will run in the background, continuously listening
  920.     for your voice commands even while other programs are running.
  921.     Documentation is provided in AmigaGuide format.
  922.     VCLI 6.0 runs under either Amiga DOS 2.0 or 3.0.
  923. Cost:         Free?
  924. Requirements: Supports the DSS8, PerfectSound 3, Sound Master, Sound Magic, 
  925.     and Generic audio digitizers.
  926. Availability: by ftp from wuarchive.wustl.edu in the file
  927.     systems/amiga/incoming/audio/VCLI60.lha and from
  928.     amiga.physik.unizh.ch as the file pub/aminet/util/misc/VCLI60.lha
  929. Contact:      Author's email is RHorne@cup.portal.com
  930.  
  931.  
  932. Package Name: DATAVOX - French
  933. Platform:     PC
  934. Description:  Continuous speech - speaker independent or dependent.
  935. Rough Cost:   ?
  936. Requirements: 2 PC format boards (RdF1000 and TdS 96/25) and an 
  937.     A/D - D/A module (ASA116)
  938. Misc:    Application software may dialog with DATAVOX through 2 types 
  939.     of interfaces :
  940.     1) Keyboard overlay
  941.        The application software may be used with any PC compatible 
  942.        package. No specific adaptation is necessary, you only need
  943.        to define your configuration with the application software.
  944.     2) C library
  945.        Allows a user-written program to drive the recognition system.
  946.     DATAVOX is based on the AMADEUS speech recognition software
  947.     developed at LIMSI.  It provides 
  948.     - Continuous speech recognition with
  949.       * speaker dependant : 500 words
  950.       * speaker independant : 50 words (custom-made vocabulary).
  951.     - Grammar of the application language (syntax acquisition, 
  952.       verification and simplification software).
  953.     - Large vocabulary : DATAVOX can recognize vocabularies of several 
  954.       thousand words as long as there are no more than 500 words in the 
  955.       active vocabulary at any given node. It takes less than 1 second 
  956.       to change syntax and vocabulary.
  957.     - Training controlled by the system (use of co-articulation models).
  958.     - Response time less than 500 ms for any phrase length.
  959.     - Synthetis (ADPCM) can be heard simultaneously while recognition 
  960.       is being carried out.
  961. Contact: VECSYS, Le Chene rond, 91570 Bievres, France
  962.      Fax:   33 1 69 41 24 30
  963.      Voice: 33 1 69 41 15 04
  964.  
  965.  
  966. Package: PowerSecretary
  967. Platform: Mac
  968. Price: $US5,000 (including a Centris or Quadra AV)
  969. Availability: Articulate Systems Inc.  
  970.     600 W. Cummings Park, Suite 4500
  971.     Woburn, MA  01801
  972.     Ph: (617) 935-5656   Fax: (617) 935-0490.
  973.  
  974.  
  975. Pacakge: ICSS system from IBM
  976. Description: A large vocabulary, speaker independent, continuous speech 
  977.     system which runs under Windows, OS/2, and AIX.
  978. Requirements: Soundboard (e.g. Soundblaster)
  979. Price: ?
  980. Contact: ?
  981.  
  982.  
  983. Package:  Creative VoiceAssist
  984. Platform: PC (?)
  985. Price:      $US99.95
  986. Contact:  Creative Labs
  987.     Ph: 1-800-998-5227
  988.  
  989.  
  990. Package Name: xxx
  991. Platform:     PC, Mac, UNIX, Amiga ....
  992. Description:  (e.g. isolated word, speaker independent...)
  993. Rough Cost:   (if applicable)
  994. Requirements: (hardware/software needs - if applicable)
  995. Misc:
  996. Contact:      (email, ftp or address)
  997.  
  998.  
  999. Can anyone provide info on
  1000.  
  1001.     Verbex Listen for Windows
  1002.     Voice Navigator (from Articulate Systems)
  1003.     SRI Recognisers
  1004.     BBN Recognisers
  1005.  
  1006.  
  1007. Can you provide information on any other software/hardware/packages?
  1008. Commercial, public domain and research packages are all appropriate.
  1009.  
  1010.  
  1011.  
  1012.  
  1013. Andrew Hunt
  1014. Speech Technology Research Group        Ph:  61-2-692 4509
  1015. Dept. of Electrical Engineering            Fax: 61-2-692 3847
  1016. University of Sydney, NSW, 2006, Australia    email: andrewh@speech.su.oz.au
  1017.